Improving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Training
目的はなんだっけ
モデルと手法の把握
学習手法は後回しにする予定だったが
決定は後でいいとして
把握は今やった方が良いだろう
今何が知りたいんだっけ?
情報を集める中で目的がしっかり決まっていないから頭がぐちゃぐちゃになる
適宜整理しながら見ていくのが良いか
結局どういう構造になっているのかよくわかっていない
事前学習済みTraonsformerの利用と調整をしている
特に後者はクリップ単位からフレーム単位の予測にするために必要
使用モデルは以下
CNN/GRU
アーキテクチャはベースラインの拡張
? 各モデルの役割はベースラインを見ないと分からなそう こちらを参照
https://gyazo.com/1bb03f15bf025b22a43f5a5cfd01b9b9
学習は二段階に分けて行う
擬似ラベルを使って反復的に学習し,精度が向上することは次の論文で示されている
第一段階: 事前学習済みモデル3種のアンサンブルで高品質な擬似ラベルを生成
第二段階: 擬似ラベルを使って学習
https://gyazo.com/150ebca21b9e9be8c51015679b2a31de